04. Keras 中的优化程序
Keras 优化程序
Keras 中有很多优化程序,建议你访问此链接或这篇精彩博文(此链接来自外网,国内网络可能打不开),详细了解这些优化程序。这些优化程序结合使用了上述技巧,以及其他一些技巧。最常见的包括:
SGD
这是随机梯度下降。它使用了以下参数:
- 学习速率。
- 动量(获取前几步的加权平均值,以便获得动量而不至于陷在局部最低点)。
- Nesterov 动量(当最接近解决方案时,它会减缓梯度)。
Adam
Adam (Adaptive Moment Estimation) 使用更复杂的指数衰减,不仅仅会考虑平均值(第一个动量),并且会考虑前几步的方差(第二个动量)。
RMSProp
RMSProp (RMS 表示均方根误差)通过除以按指数衰减的平方梯度均值来减小学习速率。